平均意见评分(MOS)是语音合成系统的典型主观评估指标。由于收集MOS是耗时的,因此如果有自动评估的准确MOS预测模型,那将是可取的。在这项工作中,我们提出了一个新型MOS预测模型DDOS。DDOS利用域自适应预训练来进一步预训练自制的学习模型,以进行合成语音。并添加了一个建议的模块来对每个话语的意见分数分布进行建模。使用提出的组件,DDOS在BVCC数据集上的表现优于先前的作品。BC2019数据集的零射击传输结果得到显着改善。DDO还以系统级别的分数在Interspeech 2022 Voicemos挑战中赢得了第二名。
translated by 谷歌翻译
从自我监督学习(SSL)模型中学到的语音表示可以使各种语音处理任务受益。但是,利用SSL表示通常需要微调预训练的模型或设计特定任务的下游模型和损失功能,从而导致大量记忆使用和人工劳动。最近,发现自然语言处理(NLP)的提示是一种有效的技术来利用预训练的语言模型(LMS)。具体而言,及时调整通过固定的预训练模型优化了有限数量的特定于任务参数。结果,每个任务只需要存储一小部分参数。迅速调整通过利用预先训练的LM的预测能力来提高计算和内存效率。尽管如此,在演讲社区中很少研究这种范式。我们在本文中报告了基于生成语言模型(GSLM)的语音处理任务的及时调整范式的首次探索。实验结果表明,及时的调整技术在语音分类任务中实现竞争性能,而可训练的参数少于微调专门的下游模型。我们进一步研究了具有挑战性的序列生成任务的技术。及时调整还证明了其潜力,同时在本文中讨论了限制和可能的研究方向。源代码可在https://github.com/ga642381/speechprompt上获得。
translated by 谷歌翻译
最近,在持续演讲中调整自我监督学习(SSL)的想法已开始受到关注。在大量未标记的音频上预先培训的SSL模型可以生成有利于各种语音处理任务的通用表现形式。尽管他们无处不在的部署,但这些模型的潜在隐私风险并没有得到很好的调查。在本文中,我们在黑盒访问下使用会员资格推论攻击(MIA)提供了几个SSL语音模型的第一个隐私分析。实验结果表明,这些预训练的模型容易受到米娅的攻击,并且在话语级别和扬声器级别的高对抗性优势分数具有高的对抗性优势。此外,我们还开展了几项消融研究,以了解有助于米亚成功的因素。
translated by 谷歌翻译
物理引导的神经网络(PGNNS)代表了使用物理引导(PG)丢失功能(捕获具有已知物理学中的网络输出中的违规)培训的新出现类的神经网络,以及数据中包含的监督。 PGNN中的现有工作表明,使用恒定的折衷参数,在神经网络目标中添加单个PG损耗功能的功效,以确保更好的普遍性。然而,在具有竞争梯度方向的多个PG函数的存在中,需要自适应地调谐在训练过程中不同的PG损耗功能的贡献,以获得更广泛的解决方案。我们展示了在求解基于物理学的特征值方程的最低(或最高)特征向量的通用神经网络问题中竞争PG损失的存在,这在许多科学问题中通常遇到。我们提出了一种新的方法来处理竞争PG损失,并在量子力学和电磁繁殖中的两个激励应用中展示其在学习普遍解决方案中的功效。这项工作中使用的所有代码和数据都可以在https://github.com/jayroxis/cophy-pgnn获得。
translated by 谷歌翻译
摄像机传感器越来越多地与机器学习相结合,以执行各种任务,例如智能监视。由于其计算复杂性,这些机器学习算法中的大多数都被卸载到云中进行处理。但是,用户越来越关注第三方云提供商诸如功能蠕变和恶意使用之类的隐私问题。为了减轻这一点,我们提出了一个基于边缘的过滤阶段,该阶段在将传感器数据传输到云之前,该阶段去除对隐私敏感的属性。我们使用最先进的图像操纵技术,以利用删除表示形式来实现隐私过滤。我们定义选择加入和退出过滤器操作,并评估其从面部图像过滤私人属性的有效性。此外,我们研究了自然发生的相关性和剩余信息对过滤的影响。我们发现结果有希望,并相信这会进一步研究如何将图像操纵用于隐私保护。
translated by 谷歌翻译
例如,近似K-Nearest的邻居搜索(AKNNS)现在已经在现代应用程序中变得无处不在,例如,作为一个快速搜索程序,具有两个塔式深度学习模型。特别是基于图的AKNN方法,由于其出色的性能,因此受到了极大的关注。这些方法依靠贪婪的图形搜索来遍历数据库中的载体。在这种贪婪的搜索方案下,我们进行了一个关键的观察:许多距离计算不会影响搜索更新,因此可以在不损害性能的情况下近似这些计算。结果,我们提出了手指,这是一种快速的推理方法,以实现有效的图形搜索。手指通过估计较低碱基和分布匹配的相邻残留向量之间的角度来近似距离函数。近似距离可用于绕过不必要的计算,从而导致更快的搜索。从经验上讲,在不同的基准数据集中加速了一种名为HNSW的流行基于图形的方法,其名称为HNSW的HNSW方法可超过现有的基于图的方法20%-60%。
translated by 谷歌翻译
极端多标签文本分类(XMC)问题问题是从大型标签集查找输入文本实例的大多数相关标签。但是,XMC设置面临两个挑战:(1)不允许在动态环境中预测看不见的标签,(2)它需要大量监督(实例,标签)对,这可能难以获得新兴域名。最近,已经研究了广义零拍XMC(GZ-XMC)设置,并相应地提出了Zestxml以处理未经调整的标签,这仍需要大量注释(实例,标签)对。在本文中,我们考虑了一个更实际的场景,称为极端零拍摄XMC(EZ-XMC),其中不需要监督,并且只能访问实例的原始文本和标签。少量XMC(FS-XMC),还调查了具有有限监督的EZ-XMC的扩展。要学习实例的语义嵌入和标签与原始文本,我们建议预先列车基于变压器的编码器,具有自我监督的对比损失。具体而言,我们开发了一种预训练方法MACLR,它彻底利用了使用多尺度自适应聚类,标签正则化和具有伪正对的自我训练的技术的原始文本。四个公共EZ-XMC数据集的实验结果表明,与所有其他领先的基线方法相比,MaclR达到了卓越的性能,特别是平均精度和召回的预测约为5-10%。此外,我们还表明,当在训练中存在有限数量的地面真相阳性对时,我们的预训练编码器可以进一步提高FS-XMC。通过在这样的几滴子集中进行微调,Maclr仍然显着优于其他极端分类器。
translated by 谷歌翻译
在加固学习中的代理商中设计有效的沟通机制一直是一个具有挑战性的任务,特别是对于现实世界的应用。代理人的数量可以增长或环境有时需要与现实世界情景中的变化数量的代理商进行互动。为此,在尺度和动态方面,需要处理各种代理框架的各种方案,以便对现实世界的应用来说是实用的。我们制定多种代理环境,具有不同数量的代理作为多任务问题,提出了一个元增强学习(Meta-RL)框架来解决这个问题。所提出的框架采用Meta学习的通信模式识别(CPR)模块来识别促进培训过程的通信行为和提取信息。实验结果旨在证明所提出的框架(A)推广到看不见的更大量的药剂,(B)允许代理的数量在发作之间发生变化。还提供了烧蚀研究,以推理拟议的CPR设计并显示这种设计是有效的。
translated by 谷歌翻译
精确预测蛋白质功能和性质的能力在生物技术行业中是必不可少的,例如,药物开发和人工蛋白质合成等。蛋白质功能预测的主要挑战是大标签空间和缺乏标记的训练数据。我们的方法利用无监督的序列嵌入和深度卷积神经网络的成功来克服这些挑战。相比之下,大多数现有方法删除了罕见的蛋白质功能以减少标签空间。此外,一些现有方法需要额外的生物信息(例如,蛋白质的三维结构),其难以在生化实验中确定。我们所提出的方法显着优于仅使用蛋白质序列作为输入的公共可用基准的其他方法。这允许识别识别蛋白质功能的过程。
translated by 谷歌翻译
The 3D-aware image synthesis focuses on conserving spatial consistency besides generating high-resolution images with fine details. Recently, Neural Radiance Field (NeRF) has been introduced for synthesizing novel views with low computational cost and superior performance. While several works investigate a generative NeRF and show remarkable achievement, they cannot handle conditional and continuous feature manipulation in the generation procedure. In this work, we introduce a novel model, called Class-Continuous Conditional Generative NeRF ($\text{C}^{3}$G-NeRF), which can synthesize conditionally manipulated photorealistic 3D-consistent images by projecting conditional features to the generator and the discriminator. The proposed $\text{C}^{3}$G-NeRF is evaluated with three image datasets, AFHQ, CelebA, and Cars. As a result, our model shows strong 3D-consistency with fine details and smooth interpolation in conditional feature manipulation. For instance, $\text{C}^{3}$G-NeRF exhibits a Fr\'echet Inception Distance (FID) of 7.64 in 3D-aware face image synthesis with a $\text{128}^{2}$ resolution. Additionally, we provide FIDs of generated 3D-aware images of each class of the datasets as it is possible to synthesize class-conditional images with $\text{C}^{3}$G-NeRF.
translated by 谷歌翻译